AI资讯新闻榜单内容搜索-Evaluation

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Evaluation

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8530 点击 2025-12-08 14:13

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”，DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试，结果性能暴跌近30%。来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

来自主题: AI技术研报

9837 点击 2025-07-21 10:44

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好？最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。

来自主题: AI技术研报

7228 点击 2025-07-18 11:02

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

5789 点击 2024-10-14 15:46

上一页当前第1页,共1页下一页